1
GPU 性能的内存中心本质
AI024Lesson 5
00:00

在 GPU 加速中,我们必须摒弃“计算优先”的思维。现代性能主要由 内存管理决定:即主机(CPU)与设备(GPU)之间数据分配、同步和优化的协调。

1. 内存与计算的差距

尽管 GPU 的算术吞吐量($TFLOPS$)已急剧上升,但内存带宽($GB/s$)的增长却慢得多。这造成了一个鸿沟,执行单元经常处于‘饥饿’状态,等待来自显存的数据到达。因此, GPU 编程往往就是内存编程

2. 屋顶线模型

该模型直观展示了 算术强度 (FLOPs/Byte)与性能之间的关系。应用程序通常分为两类:

  • 内存受限: 受带宽限制(陡峭斜坡)。
  • 计算受限: 受峰值 TFLOPS 限制(水平天花板)。
算术强度(FLOPs/Byte)性能(GFLOPS)内存受限计算受限

3. 数据移动的代价

性能的主要瓶颈很少是数学运算本身;而是通过 PCIe 总线或从高带宽内存(HBM)移动一个字节所带来的延迟和能耗成本。高性能代码更注重数据驻留,尽量减少主机与设备之间的数据传输。

main.py
TERMINALbash — 80x24
> Ready. Click "Run" to execute.
>